⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化
⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案:搜索自博弈 Search Self-play(SSP)⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是:让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」,它们在对抗训练中共同进化,使训练难度随着模型能⼒动态提升,最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。
昨天测试了一款很拉跨的 AIGC 类产品,再也不用了。 我不清楚,为什么有些生成类的产品还在可劲强调生成能力,而不花心思做修改和编辑的体验。 一个项目做到九成,我们脑子里经常会冒出个错觉,好像离终点只
今年也是阿里从芯片到云到 PaaS 到大模型,再到顶层 agent 等全栈 AI 能力接入的首个双 11——世界范围内,从未有过如此大规模生产场景 AI 落地。 场景变化,用户量增加,叠加全栈 AI 接入——当双 11 技术备战进入第 17 个年头,其意义早已超越一次促销的技术保障。
今日,全球首个Vibe Selling AI Agent 公司「Dealism」宣布完成 1500 万美元天使轮融资,由高瓴创投(GL Ventures)领投,红杉中国、线性资本及其他投资人跟投。
试了一下 TRAE 刚更新的 Solo 正式版,发现还是挺厉害的。尤其是这个Solo coder Agent 很强。
「紫荆智康」日前完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,本轮融资将主要用于紫荆AI医院(Agent Hospital)系统的研发、迭代与升级。紫荆智康成立于2024年9月,由清华大学智能产业研究院(AIR)孵化,清华大学计算机系教授、智能产业研究院执行院长刘洋发起
Epiminds 的核心产品是一个名为 Lucy 的 AI 营销经理,但这个描述其实远远低估了它的能力。Lucy 不是一个单一的 AI 工具,而是一个协调者,她指挥着超过 20 个专业化的 AI agent,这些 agent 各自负责不同的营销任务,共同组成了一支完整的虚拟营销团队。
AI 产业的两大核心趋势正并行发展:基础大模型的能力持续突破,而 AI Agent 的产业化落地也在全面提速。Capgemini 于 2025 年 4 月发布的一项覆盖 14 国 1500 名企业高管的调研显示[1],已有 37% 的受访组织启动或实施 AI Agent 项目,另有高达 61 %的组织将在一年内跟进部署或进行探索,印证了该趋势的全球共识。
LLM Agent 正以前所未有的速度发展,从网页浏览、软件开发到具身控制,其强大的自主能力令人瞩目。然而,繁荣的背后也带来了研究的「碎片化」和能力的「天花板」:多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩,整个领域仿佛一片广袤却缺乏地图的丛林。
机器之心报道 编辑:Panda 刚刚,OpenHands 开发团队发布了一篇新论文,正式宣布广受欢迎的软件开发智能体框架 OpenHands (GitHub star 已超 6.4 万)中的智能体组件